RL eficiente guiando modelos del mundo con datos no curados
Descubre cómo guiar modelos del mundo con datos no curados acelera el aprendizaje por refuerzo, duplicando la puntuación en 72 tareas visuomotoras.
Descubre cómo guiar modelos del mundo con datos no curados acelera el aprendizaje por refuerzo, duplicando la puntuación en 72 tareas visuomotoras.